面部检测和识别是人工智能系统中最困难,经常使用的任务。这项研究的目的是介绍和比较系统中使用的几种面部检测和识别算法的结果。该系统始于人类的训练图像,然后继续进行测试图像,识别面部,将其与受过训练的面部进行比较,最后使用OPENCV分类器对其进行分类。这项研究将讨论系统中使用的最有效,最成功的策略,这些策略是使用Python,OpenCV和Matplotlib实施的。它也可以用于CCTV的位置,例如公共场所,购物中心和ATM摊位。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Although recent deep learning-based calibration methods can predict extrinsic and intrinsic camera parameters from a single image, their generalization remains limited by the number and distribution of training data samples. The huge computational and space requirement prevents convolutional neural networks (CNNs) from being implemented in resource-constrained environments. This challenge motivated us to learn a CNN gradually, by training new data while maintaining performance on previously learned data. Our approach builds upon a CNN architecture to automatically estimate camera parameters (focal length, pitch, and roll) using different incremental learning strategies to preserve knowledge when updating the network for new data distributions. Precisely, we adapt four common incremental learning, namely: LwF , iCaRL, LU CIR, and BiC by modifying their loss functions to our regression problem. We evaluate on two datasets containing 299008 indoor and outdoor images. Experiment results were significant and indicated which method was better for the camera calibration estimation.
translated by 谷歌翻译
在计算机视觉应用中广泛采用深度神经网络引起了对对抗性鲁棒性的重大兴趣。现有的研究表明,专门针对给定模型量身定制的恶意扰动输入(即,对抗性示例)可以成功地转移到另一个受过独立训练的模型中,以引起预测错误。此外,这种对抗性示例的属性归因于数据分布中的预测模式得出的特征。因此,我们有动力调查以下问题:对抗性防御,例如对抗性例子,可以成功地转移到其他受过独立训练的模型中?为此,我们提出了一种基于深度学习的预处理机制,我们将其称为可鲁棒的可转移功能提取器(RTFE)。在研究了理论动机和含义后,我们在实验上表明,我们的方法可以为多个独立训练的分类器提供对抗性的鲁棒性,这些分类器原本是对自适应白盒对手的无效性。此外,我们表明RTFE甚至可以为在不同数据集中独立训练的模型提供单发对手的鲁棒性。
translated by 谷歌翻译
在过去的十年中,基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近,最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域,在该字段中,自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发,遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上,但据我们所知,我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法,用于遥感子方面的不同遥感问题:非常高分辨率(VHR),高光谱(HSI)和合成孔径雷达(SAR)图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外,我们打算在遥感论文中频繁更新和维护最新的变压器,及其各自的代码:https://github.com/virobo-15/transformer-in-in-remote-sensing
translated by 谷歌翻译
线性回归是统计分析的基本工具。这激发了线性回归方法的开发,这些方法也满足了差异隐私,因此可以保证,学到的模型几乎没有揭示用于构建它的任何一个数据点。但是,现有的差异化解决方案假设最终用户可以轻松指定良好的数据范围和超参数。两者都有重大的实践障碍。在本文中,我们研究了一种算法,该算法使用指数机制从非私有回归模型集合中选择具有高图基深度的模型。给定用于训练$ m $型号的$ d $二维数据的$ n $样品,我们使用近似Tukey深度构建一个有效的模拟,该深度在时间$ o(d^2n + dm \ log(m))$中构建。我们发现该算法在数据范围或不需要的超参数选择的情况下获得了强大的经验性能。
translated by 谷歌翻译
使用变压器模型,多语言神经机器的翻译一直显示出巨大的成功。部署这些模型是具有挑战性的,因为它们通常需要各种语言的大词汇(词汇)尺寸。这限制了在上一个词汇投影层中预测输出令牌的速度。为了减轻这些挑战,本文提出了一种通过聚类的快速词汇投影方法,该方法可用于GPU上的多语言变压器。首先,我们脱机将词汇搜索空间分为不同的结合群,鉴于解码器输出的隐藏上下文向量,这导致词汇投影的词汇列要小得多。其次,在推理时,提出的方法预测了词汇投影中隐藏上下文向量的簇和候选候选代币。本文还包括对在多语言环境中构建这些群集的不同方式的分析。我们的结果表明,FLOAT16 GPU推断中的端到端速度增长高达25%,同时保持BLEU得分并略有增加记忆成本。所提出的方法将词汇投影步骤加速自身最多2.6倍。我们还进行了广泛的人类评估,以验证所提出的方法保留了原始模型的翻译质量。
translated by 谷歌翻译
Natiq是阿拉伯语的端到端文本到语音系统。我们的语音合成器使用Encoder-Decoder架构引起了人们的注意。我们同时使用了基于TACOTRON的模型(Tacotron-1和Tacotron-2)和更快的变压器模型来从字符中生成MEL光谱图。我们将tacotron1与Wavernn Vocoder,Tacotron2与WaveLow Vocoder和ESPNET变压器与平行波甘gan vocoder串联,以从频谱图合成波形。我们使用了两个声音的内部语音数据:1)中立的男性“ hamza” - 叙述一般内容和新闻,以及2)表现力的女性“ Amina” - 叙述孩子的故事书来训练我们的模型。我们的最佳系统的平均平均意见评分(MOS)分别为Amina和Hamza的平均意见分别为4.21和4.40。使用单词和字符错误率(WER和CER)对系统的客观评估以及实时因子测量的响应时间有利于端到端体系结构ESPNET。 NATIQ演示可在线上https://tts.qcri.org提供
translated by 谷歌翻译
owloop是一个应用程序编程接口(API),用于通过面向对象编程(OOP)的方式使用本体Web语言(OWL)。使用OOP范例设计软件架构是常见的,以增加其模块化。如果架构的组件还用于知识表示和推理的OWL本体,则需要与OWL公理界面接口。由于猫头鹰不符合OOP范例,因此这种接口通常会导致影响模块化的样板代码,欧伦福旨在解决这个问题以及相关的计算方面。我们介绍了OWL-API的扩展,以提供猫头鹰公理之间的通用接口,而是经过推理和模块化OOP对象层次结构。
translated by 谷歌翻译
我们探讨各种塑性功能对神经元组件的影响。为了弥合实验和计算理论之间的差距,我们利用概念框架,组装微积分,这是基于神经元组件的脑功能描述的正式系统。组装计算包括用于突出,关联和合并神经元组件的操作。我们的研究专注于模拟不同的可塑性功能,使组装微积分。我们的主要贡献是对投影操作的修改和评估。我们试验OJA和Spike时间依赖的可塑性(STDP)规则并测试各种超参数的效果。
translated by 谷歌翻译